Lịch sử Tổng_hợp_giọng_nói

Từ lâu trước khi kỹ thuật xử lý tín hiệu bằng thiết bị điện tử hiện đại ra đời, các nhà nghiên cứu giọng nói đã cố gắng xây dựng các máy móc bắt chước giọng nói của người. Các ví dụ đầu tiên của các máy này được chế tạo bởi Gerbert ở Aurillac (1003), Albertus Magnus (11981280), và Roger Bacon (12141294).

Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc đó làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô hình có thể bắt chước giọng nói người với năm nguyên âm ([a], [e], [I], [o] và [u]). Máy này sau đó được cải tiến thành 'Máy Phát âm Cơ khí-Âm học' của Wolfgang von KempelenViên, Áo, được mô tả trong bài báo năm 1791 mang tựa đề Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("phương pháp tạo giọng nói và mô tả máy thực hiện việc này," J. B. Degen, Wien). Máy này tạo ra mô hình của lưỡimôi, cho phép tạo ra phụ âm thêm vào cho nguyên âm. Năm 1837 Charles Wheatstone tạo ra 'máy nói' dựa trên thiết kế của von Kempelen, và đến năm 1857 M. Faber chế tạo máy 'Euphonia'. Máy của Wheatstone lại được cải tiến năm 1923 bởi Paget.

Những năm 1930, Phòng thí nghiệm Bell tạo ra máy VOCODER, một máy phân tích và tổng hợp giọng nói điều khiển bằng bàn phím, được mô tả là phát âm rõ ràng. Homer Dudley cải tiến cỗ máy này thành VODER, và trưng bày nó tại Triển lãm Thế giới New York 1939.

Các máy tổng hợp giọng nói bằng kỹ thuật điện tử, trong giai đoạn này, có giọng nói không tự nhiên và khó nghe. Tuy nhiên, chất lượng tổng hợp giọng nói ngày càng được cải tiến, cho đến ngày nay giọng phát âm của nhiều hệ thống có chất lượng tương đương giọng nói của người thật.

Các hệ thống tổng hợp giọng nói đầu tiên được tạo ra vào những năm 1950 và hệ thống hoàn chỉnh đầu tiên ra đời vào năm 1968.

Năm 1961, nhà vật lý học John Larry Kelly, Jr dùng máy tính IBM 704 để tổng hợp giọng nói, đây là sự kiện đáng nhớ trong lịch sử của phòng thí nghiệm Bell. Máy ghi âm và tổng hợp giọng nói của Kelly tạo ra bài hát Daisy Bell, với âm nhạc phụ họa bởi Max Mathews. Vào lúc trình diễn, Arthur C. Clarke đang thăm bạn và đồng nghiệp John Piercekhu thí nghiệm Bell ở Murray Hill. Clarke đã bị ấn tượng mạnh bởi trình diễn của máy phát âm và đã dùng hình ảnh này trong tiểu thuyết và kịch bản phim của ông 2001: A Space Odyssey,[1] trong đó máy tính HAL 9000 hát cùng bài hát khi nó sắp bị nhà du hành vũ trụ Dave Bowman đặt vào trạng thái ngủ.[2]

Công nghệ tổng hợp giọng nói đã tiến hóa nhanh kể từ đó. Hiện nay có hàng trăm hệ thống tổng hợp giọng nói, thương mại cũng như tự do (xem liên kết ngoài).

Tuy đã đạt được thành tựu trong tổng hợp giọng nói bằng kỹ thuật điện tử, các nghiên cứu vẫn đang được tiến hành để tạo ra bộ tổng hợp giọng nói cơ học, mô phỏng thanh quản của người, dùng trong robot dạng người. Các bộ tổng hợp giọng nói điện tử bị giới hạn bởi chất lượng của loa, bộ phận cuối cùng tạo ra âm thanh, dù tín hiệu điện tử có hoàn hảo. Có hy vọng rằng bộ thanh quản cơ khí có thể tạo ra giọng nói chuẩn hơn loa thông thường.